基于变压器的视觉对象跟踪已广泛使用。但是,变压器结构缺乏足够的电感偏差。此外,仅专注于编码全局功能会损害建模本地细节,这限制了航空机器人中跟踪的能力。具体而言,通过局部模型为全球搜索机制,提出的跟踪器将全局编码器替换为新型的局部识别编码器。在使用的编码器中,仔细设计了局部识别的关注和局部元素校正网络,以减少全局冗余信息干扰和增加局部归纳偏见。同时,后者可以通过详细信息网络准确地在空中视图下对本地对象详细信息进行建模。所提出的方法在几种权威的空中基准中实现了竞争精度和鲁棒性,总共有316个序列。拟议的跟踪器的实用性和效率已通过现实世界测试得到了验证。
translated by 谷歌翻译
机器人在仓库和工厂等受控环境中执行重复和精确的敏感任务方面表现出色,但尚未扩展到体现在家庭任务中提供帮助的AI代理。受到基准在AI领域(例如计算机视觉和自然语言处理)中的催化效果的启发,社区正在寻找用于体现AI的新基准。体现AI基准的先前工作使用不同的形式主义定义任务,通常特定于一个环境,模拟器或域,从而难以开发一般和可比较的解决方案。在这项工作中,我们将一部分行为活动带入了栖息地2.0中,以从其快速模拟速度中受益,这是证明逻辑空间中定义的适应活动的第一步,将其定义为不同的模拟器。
translated by 谷歌翻译
基于无人机(UAV)基于无人机的视觉对象跟踪已实现了广泛的应用,并且由于其多功能性和有效性而引起了智能运输系统领域的越来越多的关注。作为深度学习革命性趋势的新兴力量,暹罗网络在基于无人机的对象跟踪中闪耀,其准确性,稳健性和速度有希望的平衡。由于开发了嵌入式处理器和深度神经网络的逐步优化,暹罗跟踪器获得了广泛的研究并实现了与无人机的初步组合。但是,由于无人机在板载计算资源和复杂的现实情况下,暹罗网络的空中跟踪仍然在许多方面都面临严重的障碍。为了进一步探索基于无人机的跟踪中暹罗网络的部署,这项工作对前沿暹罗跟踪器进行了全面的审查,以及使用典型的无人机板载处理器进行评估的详尽无人用分析。然后,进行板载测试以验证代表性暹罗跟踪器在现实世界无人机部署中的可行性和功效。此外,为了更好地促进跟踪社区的发展,这项工作分析了现有的暹罗跟踪器的局限性,并进行了以低弹片评估表示的其他实验。最后,深入讨论了基于无人机的智能运输系统的暹罗跟踪的前景。领先的暹罗跟踪器的统一框架,即代码库及其实验评估的结果,请访问https://github.com/vision4robotics/siamesetracking4uav。
translated by 谷歌翻译
BackPropagation广泛用于计算深神经网络(DNN)中的梯度。通常与随机梯度下降(SGD)或其变体一起施用,反向化被认为是在各种机器学习任务中的De-Facto选择,包括DNN培训和对抗性攻击/防御。最近,引入了名为LINBP的BP的线性变体,用于通过GUO等人产生更加可转移的对抗性实施例,以产生黑箱对抗性攻击。然而,它尚未理解研究,并且缺乏这种方法的收敛分析。本文用作郭等人的延伸,以郭等人在内的杂志上涉及的基础学习任务提供了杂志和模型培训的理论分析。我们展示了,与BP相比,Linbp可能会导致在相同的超参数设置中的这些任务中的速度更快。我们通过广泛的实验确认我们的理论结果。
translated by 谷歌翻译
学习迭代收缩阈值算法(ListA)在一些收缩函数中引入了具有可学习阈值的深度展开模型,用于稀疏编码。绘制在一些理论上见解中,我们提倡基于误差的阈值(EBT)机制,用于列表,它利用了层面重建误差的函数来为每层的每个观察表达适当的阈值。我们表明EBT机制很好地解除了从重建错误中的收缩功能中的学习参数,使它们更适应各种观察。通过严谨的理论分析,除了其较高的适应性外,拟议的EBT可以基于列表及其变体来实现更快的收敛性。广泛的实验结果证实了我们的理论分析并验证了我们方法的有效性。
translated by 谷歌翻译
蛋白质与几乎每个生命过程都相关联。因此,分析蛋白质序列的生物学结构和性质对植物勘探至关重要,以及疾病检测和药物发现。传统的蛋白质分析方法往往是劳动密集型和耗时的。深度学习模型的出现使得大量数据的建模数据模式可能。跨学科研究人员已经开始利用深入学习方法来建模大型生物数据集,例如,使用长短期记忆和卷积神经网络进行蛋白质序列分类。在数百万年的进化之后,进化信息在蛋白质序列中编码。灵感来自自然语言和蛋白质序列之间的相似性,我们使用大规模的语言模型来模拟进化尺度蛋白序列,编码表示的蛋白质生物学信息。在令牌级和序列级任务中观察到显着改进,表明我们的大规模模型可以准确地捕获进化尺度单个序列上的预测信息。我们的代码和型号可在https://github.com/thudm/proteinlm获得。
translated by 谷歌翻译
由于行动和状态空间的连续性,策略的多模式,环境中的障碍的存在以及对其他代理的瞬时适应需要,因此协作式携带是一项复杂的任务。在这项工作中,我们提出了一种预测合作人类手机团队的现实运动计划的方法。使用变性复发性神经网络VRNN来对人类机器人团队的轨迹进行建模,随着时间的流逝,我们能够捕获团队未来状态的分布,同时利用交互历史的信息。我们方法的关键是我们模型利用人类示范数据并产生在测试期间与人协同良好的轨迹的能力。我们表明,与基线,基于集中抽样的计划者快速探索的随机树(RRT)相比,该模型会产生更多类似人类的运动。此外,我们通过人类合作伙伴评估了VRNN规划师,并显示出比RRT在与人类计划时能够产生更类似人类的路径并获得更高的任务成功率的能力。最后,我们证明了使用VRNN规划师使用的Lotobot可以通过控制另一个Locot的人来成功完成任务。
translated by 谷歌翻译
学习优化是一个快速增长的领域,旨在使用机器学习(ML)来解决优化问题或改善现有的优化算法。特别是,图形神经网络(GNN)被认为是用于优化问题的合适ML模型,其变量和约束是置换的 - 例如线性程序(LP)。尽管文献报道了令人鼓舞的数值结果,但本文确定了将GNN应用于解决LP的理论基础。给定LPS的任何尺寸限制,我们构造了一个GNN,该GNN将不同的LP映射到不同的输出。我们表明,正确构建的GNN可以可靠地预测广泛类别中每个LP的可行性,界限和最佳解决方案。我们的证明是基于最近发现的Weisfeiler-Lehman同构测试与GNN之间的联系。为了验证我们的结果,我们培训了一个简单的GNN,并提出了将LP映射到其可行性和解决方案中的准确性。
translated by 谷歌翻译
炎症性肠病(IBD),尤其是溃疡性结肠炎(UC),由内镜医生分级,该评估是风险分层和治疗监测的基础。目前,内窥镜表征在很大程度上取决于操作员,导致IBD患者有时不良的临床结果。我们专注于广泛使用但需要可靠地鉴定粘膜炎症变化的蛋黄酱内窥镜评分(MES)系统。大多数现有的深度学习分类方法无法检测到这些细粒度的变化,从而使UC的分级成为一项具有挑战性的任务。在这项工作中,我们介绍了一个新颖的贴片级实例组歧视,并使用借口 - 不变的表示学习(PLD-pirl)进行自我监督学习(SSL)。我们的实验表明,与基线监督网络和几种最先进的SSL方法相比,准确性和鲁棒性提高了。与基线(RESNET50)监督分类相比,我们提出的PLD-pirl在Hold-Out测试数据中获得了4.75%的改善,而在看不见的中心测试数据中获得了6.64%的速度,以获得TOP-1的准确性。
translated by 谷歌翻译
变性自动编码器(VAE)是一种有效的神经网络体系结构,可以将语音发言性解散到扬声器身份和语言内容潜在的嵌入式中,然后为目标发言人与源扬声器的语音产生话语。通过将目标扬声器的身份嵌入以及源说明句子的源头嵌入,这是可能的。在这项工作中,我们建议通过自我注意和结构正则化(RGSM)改善VAE模型。具体而言,我们发现了VAE的解码器的合适位置,以添加一个自我发言层,以将非本地信息纳入产生转换的话语并隐藏源说话者的身份。我们应用了放松的小组分裂方法(RGSM)来正规化网络权重并显着提高泛化性能。在VCTK数据集的零射击的零射击实验中,具有自我发项层和放松的小组分裂方法,我们的模型可在未看到的扬声器上获得28.3 \%的扬声器分类准确性,而同时达到28.3 \%就MOSNET分数而言,转化语音质量略有改善。我们令人鼓舞的发现表明,未来的研究将在VAE框架中整合更多各种注意力结构,同时控制模型大小和过度拟合,以推动零射击多次播放的语音转换。
translated by 谷歌翻译